문서의 임의 삭제는 제재 대상으로, 문서를 삭제하려면 삭제 토론을 진행해야 합니다. 문서 보기문서 삭제토론 회귀 분석 (문단 편집) == 문제가 생기는 경우 == 선형회귀분석에서 가정하는 사항 및 검정하는 법은 다음과 같다 * 선형성: 설명/반응 변수간 관계가 선형 관계인지를 의미한다. 그렇지 않을 시 선형회귀를 포함한 선형모형은 해당 변수를 설명하기 위해 적합한 모형이 아닐 것이다. - 단순회귀분석에서는 설명/반응변수간 Scatter Plot으로 관계를 볼 수 있다. * 정규성: 모형의 예측값과 실제값간의 오차인 잔차가 정규분포에 해당하는지 여부를 의미한다. 회귀모형이 정규분포를 가정한 모형임에 따라 정규성 여부를 검정하게된다. - 이를 진단하기 위해 QQ Plot을 사용한다. * 등분산성:잔차의 분산이 동일한지를 의미한다. - 모형 예측값을 x축으로 두고 y축으로 잔차값을 둔 Residual Plot으로 어느정도 심각한지 파악가능하며, 만일 예측 값에 따라 잔차의 분포가 퍼질 때 심각한 이분산 문제가 있다고 여겨진다.[* Breusch Pagan Test로 검정할 수 있으나, 해당 검정기법은 매우 엄격하여 해당 모형에서는 상당수의 모형이 이분산임으로 진단된다.] [[https://www.statalist.org/forums/filedata/fetch?id=1405339&d=1502106583&type=full]] - 이때 반응변수에 대한 정규화로 완화할 수 있다. * 독립성: 잔차간에 상관관계가 없어야한다.[* [[독립항등분포]] (iid) 문서 참조.] 상관관계가 강하게 있을 시 회귀모형의 계수와 p-value가 정확하지 않다. - Durbin Watson 검정으로 자기상관성을 판단할 수 있으나, 등분산성 검정에서와 같이 x축을 시간, y축을 잔차값으로 둔 Plot으로도 어느정도 심각한지를 진단할 수 있다. - 시계열 데이터에 이런 문제가 흔히 발생하며, 이때는 로그 정규화나 차분 (Differencing)으로 대응할 수 있다. * 다중공선성: 설명변수 간 상관관계가 클 때를 의미한다. - Variance Inflation Factor (VIF) 계수로 진단하며, 10을 넘을 때 심각한 다중공선성이 있다고 진단한다. 이때 가설이 허락하는 범위하에 필요성이 낮은 변수를 소거하여 대응할 수 있다. 사전에 다중공선성을 피하기 위해 모형에 사용한 설명변수 간 피어슨 상관관계 분석으로 상관관계의 정도를 파악할 수 있다. 이외에도 중요 변수가 제외된 경우, 과적합 (Overfitting), 외삽법 (Extrapolation), 데이터 누락 등이 있다.저장 버튼을 클릭하면 당신이 기여한 내용을 CC-BY-NC-SA 2.0 KR으로 배포하고,기여한 문서에 대한 하이퍼링크나 URL을 이용하여 저작자 표시를 하는 것으로 충분하다는 데 동의하는 것입니다.이 동의는 철회할 수 없습니다.캡챠저장미리보기